【レポート】AWS の分析マネージドサービスでデータ活用を加速しよう!#AWS-08 #AWSSummit
本記事では2021/05/11(火)に行われた AWS Summit Online 2021 のオンラインセッション「AWS-08: AWS の分析マネージドサービスでデータ活用を加速しよう!」の内容についてまとめています。
セッション情報
登壇者
アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 レディネスソリューション本部 ソリューションアーキテクト 川村 誠 氏
セッション概要
オープンソースソフトウェア(OSS)を分析に利用する多くのお客様は、データを分析して価値を見出すために利用すべき時間と労力を運用に使っています。AWS のマネージドサービスを使うと運用の手間を省き、より多くの時間と労力をデータ分析に活用できるようになります。本セッションでは、データ分析ワークロードにおける典型的な OSS 運用の課題を解決するマネージドサービスの魅力と活用事例についてご紹介します。
レポート
アジェンダ
- AWSの分析マネージドサービスに移行する理由
- マネージドなビッグデータ分析サービスへの移行
- サーバレスなアドホッククエリ分析サービスへの移行
- マネージドなリアルタイム分析サービスへの移行
AWSマネージドサービスに移行する理由
- 運用管理が必要な分析サービスは、複雑であり、時間とコストがかかる
- ハードウェア / ソフトウェアの導入、設定、パッチ適用、バックアップ
- 計算/ストレージリソースに関するキャパシティプランニングとリソース拡張
- パフォーマンス、スループット、レイテンシー、高可用性に関する課題
- セキュリティとコンプライアンスの厳守
AWSが提供するフルマネージドな分析サービス
- AWSの提供する分析サービスに移行すると、価値創出により多くの時間とコストが利用可能になる
- 最も簡単にデータレイクと分析環境を構築できる
- 最もセキュアなインフラを分析に利用できる
- 最も包括的でオープン
- 最もスケーラブルで費用対効果が高い
マネージドなビッグデータ分析サービスへの移行
オンプレミスまたはセルフマネージドなHadoopをマネージドサービスに移行
典型的な課題
- Apache Hadoop / Apache Spark には複数のオープンソースソフトウェアフレームワークで構成されるエコシステムがあり、それぞれにリリースサイクルがあるため個別に保守することが非常に難しい
- 従来のビッグデータプラットフォームでは、データとコンピューティングを一緒に設置する必要があるため、ビジネスニーズを満たすための拡張が困難でコストが高くなる
Amazon EMR
新しいデプロイモデル
- Amazon EKSでAmazon EMRを実行可能
- 既存のデプロイモデルに追加
- KubernetesでのSparkジョブ実行がシンプル化
Amazon EMRへの移行による性能向上
- オープンソースのApache Spark 3.0よりも1.7倍速いパフォーマンスを40%のコストで実現
- オープンソースの Presto 0.238よりも最大 2.6倍のパフォーマンスを80%のコストで実現
- Graviton2 インスタンス利用で平均11.5%のパフォーマンス向上
- Graviton2 インスタンス利用で平均25.7%のコスト削減
導入事例
- FINRA
サーバレスなアドホッククエリ分析サービスへの移行
オンプレミスまたはセルフマネージドなPrestoをサーバレスサービスに移行
典型的な課題
- ビッグデータに対してアドホックにクエリ分析を実施したいが、定常業務ワークロードに影響を与える可能性があるため、安易に実行することが難しい
- 常に必要なワークロードではないため、アドホックなクエリ分析のためだけにリソースを増強することは困難
Amazon Athena
Amazon Athena Federated Query
- リレーショナル、非リレーショナル、オブジェクト、またはカスタムデータソース間でクエリを実行する
- オンプレミス、または、クラウドデータソース間でクエリを実行する
- アドホックな調査、複雑なパイプライン、アプリケーションに使用可能
- データソースコネクターを利用して Athena クエリエンジンを拡張可能に
導入事例
- 株式会社ナビタイムジャパン
マネージドなリアルタイム分析への移行
オンプレミスまたはセルフマネージドなApache Kafkaをフルマネージドなサービスに移行する
典型的な課題
- Apache Kafkaは、リアルタイムストリーミングデータパイプラインとアプリケーションを構築するためのオープンソースプラットフォーム
- Apache Kafkaクラスターは、実稼働環境でのセットアップ、拡張、管理が困難。以下のような作業が発生する
- サーバーのプロビジョニング
- Apache Kafka の手動設定
- 障害発生時のサーバーの交換
- サーバーのパッチ適用とアップグレードの調整
- 高可用クラスターの設計
- データが堅牢かつ安全に保存されることの保証
- モニタリングとアラームのセットアップ
- 負荷変動に対する線蜜なスケーリングイベントの計画
Amazon Managed Streaming for Kafka (Amazon MSK)
Apache Flinkアプリケーションをフルマネージドサービスに移行する
典型的な課題
- Apache Flink は、データストリームを処理するためのオープンソースのフレームワークとエンジン
- ストリーミングアプリケーションの構築、管理、統合は複雑で、ストリーミングデータフローは随時変化する。ストリーミング分析サービスは、到着したデータをすぐに処理する必要があり、多くの場合、1時間あたり数百万件のイベント速度でストリーミングデータフローを処理する必要がある
Amazon Kinesis Data Analytics for Apache Flink
その他のデータ分析関連サービス・機能
本セッションで言及されてなかった、他のデータ分析サービス・機能についての紹介
所感
個人的にまだ触ったことがないデータ分析サービスの背景や特徴について、簡単に学べることができ非常に有意義なセッションでした! 実際に触ったり導入したりすることでさらにフルマネージドなデータ分析サービスの恩恵を感じることができそうですね!